\documentclass[a4paper]{article}
\usepackage{svn-multi}
% Version control information:
\svnidlong
{$HeadURL: http://practicas-spss.googlecode.com/svn/trunk/chicuadrado/chi_cuadrado.tex $}
{$LastChangedDate: 2010-09-27 14:37:11 +0000 (Mon, 27 Sep 2010) $}
{$LastChangedRevision: 3 $}
{$LastChangedBy: asalber $}
\svnid{$Id: chi_cuadrado.tex 3 2010-09-27 14:37:11Z asalber $}
\pdfinfo{/CreationDate (D:\svnpdfdate)}
\svnRegisterAuthor{alf}{Alfredo Sánchez Alberca}

\usepackage[spanish]{babel}
\usepackage[utf8x]{inputenc}
\usepackage{amsmath}
\usepackage{macros}
\usepackage[dvips]{graphicx}
\usepackage{enumitem}
\usepackage{subfigure}
\usepackage[small,bf]{caption2}
\usepackage[top=3cm, bottom=3cm, left=2.54cm, right=2.54cm]{geometry}
\usepackage{fancyhdr}
\pagestyle{fancy}

\lhead{\textsc{Universidad San Pablo CEU}} \rhead{\textsl{\textsf{Departamento de Métodos Cuantitativos}}}
\renewcommand{\headrulewidth}{0pt}
\renewcommand{\floatpagefraction}{.8}
\renewcommand{\textfraction}{.1}
\setcaptionwidth{\textwidth} \addtolength{\captionwidth}{-40pt}
\captionstyle{indent} \setlength\captionindent{\parindent}

\makeatletter
\let\savees@listquot\es@listquot
\def\es@listquot{\protect\savees@listquot}
\makeatletter

\begin{document}
\sloppy

\practica{Práctica de Estadística con Statgraphics}{Contrastes basados en
el estadístico $\chi^{2}$}

\bigskip

\section*{Objetivos}
\begin{itemize}
\item Conocer en qué consiste el test de la Chi-cuadrado y sus distintas aplicaciones como herramienta de inferencia estadística: determinación de relaciones entre variables cualitativas, comparación de variables cualitativas en distintas poblaciones y ajuste de distribuciones.
\item Comprender los fundamentos teóricos en los que se basa el test de la Chi-cuadrado.
\item Aprender a realizar el test de la Chi-cuadrado con SPSS.
\item Aprender a interpretar los resultados del test de la Chi-cuadrado.
\end{itemize}

\section*{Fundamentos teóricos}
Existen multitud de situaciones en el ámbito de la salud, o en
cualquier otro ámbito, en las que el investigador está interesado en determinar posibles
relaciones entre variables cualitativas. Un ejemplo podría ser el estudio de si existe relación entre las complicaciones tras una intervención quirúrgica y el
sexo del paciente, o bien el hospital en el que se lleva a cabo
la intervención. En este caso, todas las técnicas de inferencia vistas hasta ahora para variables cuantitativas no son aplicables, y para ello utilizaremos un contraste de hipótesis basado en el estadístico $\chi^{2}$ (Chi-cuadrado).

Sin embargo, aunque éste sea su aspecto
más conocido, el uso del test no se limita al estudio de la
posible relación entre variables cualitativas, y también se aplica
para comprobar el ajuste de la distribución muestral de una
variable, ya sea cualitativa o cuantitativa, a su hipotético
modelo teórico de distribución.

En general, este tipo de tests consiste en tomar una muestra y
observar si hay diferencia significativa entre las \emph{frecuencias
observadas} y las especificadas por la ley teórica del modelo que
se contrasta, también denominadas \emph{frecuencias esperadas}.

Podríamos decir que existen dos grandes bloques de aplicaciones
básicas en el uso del test de la $\chi^{2}$:

\begin{enumerate}
\item \textbf{Test de ajuste de distribuciones}. Es un contraste
de significación para saber si los datos de la población, de la
cual hemos extraído una muestra, son conforme a una ley de
distribución teórica que sospechamos que es la correcta.

Por ejemplo: disponemos de 400 datos que, a priori, siguen una
distribución de probabilidad uniforme, pero ¿es estadísticamente
cierto que se ajusten a dicho tipo de distribución?


\item \textbf{Test para tablas de contingencia.} En las que se parte de la tabla de frecuencias bidimensional para las distintas modalidades de las variables cualitativas. Aunque muy a menudo el test de la
$\chi^{2}$ aplicado en tablas de contingencia se denomina prueba
de independencia, en realidad se aplica en dos diseños
experimentales diferentes, que hacen que se clasifique en dos
bloques diferentes:


\begin{enumerate}

\item \textbf{Prueba de independencia}. Mediante la que el
investigador pretende estudiar la relación entre dos variables cualitativas en una población.

Por ejemplo: tenemos una muestra de 200 enfermos (el investigador
tan sólo controla el total en una muestra) operados de apendicitis
en 4 hospitales diferentes y queremos ver si hay relación entre la
posible infección postoperatoria y el hospital en el que el paciente ha sido operado.

\item \textbf{Prueba de homogeneidad}. Mediante la que el
investigador pretende ver si la proporción de una determinada
característica es la misma en poblaciones, tal vez, diferentes.

Por ejemplo: tenemos dos muestras diferentes, una de ellas de 100
individuos VIH positivos, y otra de 600 VIH negativos (el
investigador controla el total en ambas muestras), y queremos
analizar si la proporción de individuos con problemas
gastrointestinales es la misma en ambas.
\end{enumerate}
\end{enumerate}


\subsection*{Contraste $\chi^{2}$ de Pearson para ajuste de distribuciones}


Es el contrate de ajuste más antiguo y es válido para todo tipo de
distribuciones. Para analizar una muestra de una variable agrupada
en categorías (aunque sea cuantitativa), evaluando una hipótesis
previa sobre probabilidad de cada modalidad o categoría, se realiza un contraste de hipótesis Chi-cuadrado de bondad de ajuste.

El contraste se basa en hacer un recuento de los datos y comparar las
frecuencias observadas de cada una de las modalidades con las
frecuencias esperadas por el modelo teórico que se contrasta.
De este modo, se calcula es estadístico:
\[
\chi ^2  = \sum_{i = 1}^k \frac{(O_i  - E_i )^2} {E_i},
\]
donde $O_i$ son las frecuencias observadas en la muestra en la
modalidad $i$, y  $E_i$ son las frecuencias esperadas para la
misma modalidad según el modelo teórico. Las frecuencias esperadas
se calculan multiplicando el tamaño de la muestra por la
probabilidad de la correspondiente modalidad según el modelo
teórico, es decir $E_i=np_i$, siendo $p_i$ la probabilidad de la modalidad $i$.

Si la población de la que se ha obtenido la muestra sigue el
modelo de distribución teórica, el estadístico anterior se
distribuye como $\chi^{2}$ con $k-1$ grados de libertad, donde $k$
es el número de modalidades de la variable. Un valor del
estadístico $\chi^{2}$ grande indica que las distribuciones de las
frecuencias observadas y esperadas son bastantes diferentes,
mientras que un valor pequeño del estadístico indica que hay poca
diferencia entre ellas.

La prueba $\chi^2$ de bondad del ajuste es válida si todas las
frecuencias esperadas son mayores o iguales que 1 y no más de un
$20\%$ de ellas tienen frecuencias esperadas menores que 5. Si no
se cumple lo anterior, entonces las categorías implicadas deben
combinarse con categorías adyacentes para garantizar que todas
cumplen la condición. Si las categorías corresponden a variables
cuantitativas categorizadas, no tienen necesariamente que
corresponder a la misma amplitud de variable.

\subsection*{Contraste $\chi^{2}$ en tablas de contingencia}

Como ya hemos visto, el contraste de la $\chi^2$ en tablas de
contingencia sirve para establecer relaciones entre variables
cualitativas (o cuantitativas categorizadas), entre las que no
puede realizarse un análisis de regresión y correlación, y tanto
para determinar independencia entre variables, como homogeneidad
entre poblaciones (igual proporción de una determinada
característica). Para ello, describimos el proceso metodológico en
el caso de independencia entre variables, que en la práctica, y
aunque conceptualmente son casos diferentes, es el mismo también
para la homogeneidad entre poblaciones.

Por tablas de contingencia se entiende aquellas tablas de doble
entrada donde se realiza una clasificación de la muestra de
acuerdo a un doble criterio de clasificación. Por ejemplo, la
clasificación de unos individuos de acuerdo a su sexo y su grupo
sanguíneo crearía una tabla donde cada celda de la tabla
representaría la frecuencia bivariante de las características
correspondientes a su fila y columna (por ejemplo mujeres de grupo
sanguíneo A). Si se toma una muestra aleatoria de tamaño $n$ en la
que se miden ambas variables y se representan las frecuencias de
los pares observados en una tabla bidimensional, tenemos:

\[
\begin{tabular}{|l|lllll|l|}
\cline{1-6}
$X/Y$ & \multicolumn{1}{c}{} & \multicolumn{1}{c}{} & \multicolumn{1}{c}{$y_j$} & \multicolumn{1}{c}{} & \multicolumn{1}{c|}{} & \multicolumn{1}{l}{} \\
\hline
\multicolumn{1}{|c|}{} & \multicolumn{1}{c}{} & \multicolumn{1}{c}{} & \multicolumn{1}{c}{} & \multicolumn{1}{c}{} & \multicolumn{1}{c|}{} & \multicolumn{1}{c|}{} \\
\multicolumn{1}{|c|}{} & \multicolumn{1}{c}{} & \multicolumn{1}{c}{} & \multicolumn{1}{c}{} & \multicolumn{1}{c}{} & \multicolumn{1}{c|}{} & \multicolumn{1}{c|}{} \\
\multicolumn{1}{|c|}{$x_i$} & \multicolumn{1}{c}{} & \multicolumn{1}{c}{} & \multicolumn{1}{c}{$n_{ij}$} & \multicolumn{1}{c}{} & \multicolumn{1}{c|}{} & \multicolumn{1}{c|}{$n_i$} \\
\multicolumn{1}{|c|}{} & \multicolumn{1}{c}{} & \multicolumn{1}{c}{} & \multicolumn{1}{c}{} & \multicolumn{1}{c}{} & \multicolumn{1}{c|}{} & \multicolumn{1}{c|}{} \\
\multicolumn{1}{|c|}{} & \multicolumn{1}{c}{} & \multicolumn{1}{c}{} & \multicolumn{1}{c}{} & \multicolumn{1}{c}{} & \multicolumn{1}{c|}{} & \multicolumn{1}{c|}{} \\
\hline
\multicolumn{1}{c|}{} & \multicolumn{1}{c}{} & \multicolumn{1}{c}{} & \multicolumn{1}{c}{$n_j$} & \multicolumn{1}{c}{} & \multicolumn{1}{c|}{} & \multicolumn{1}{c|}{$n$} \\
\cline{2-7}
\end{tabular}
\]
Donde $n_{ij}$ es la frecuencia absoluta del par $(x_i, y_j)$,
$n_i$ es la frecuencia marginal de la modalidad $x_i$ y $n_j$ es
la frecuencia marginal de la modalidad $y_j$. Dichas frecuencias
aparecen en los márgenes de la tabla de contingencia sumando las
frecuencias por filas y columnas, y por ello se conocen como
frecuencias marginales.

Siguiendo un procedimiento parecido al del apartado anterior, se
comparan las frecuencias observadas en la muestra (frecuencias
reales) con las frecuencias esperadas (frecuencias teóricas). Para
ello, calculamos la probabilidad de cada casilla de la tabla
teniendo en cuenta que si ambas variables son independientes la
probabilidad de cada celda surge como un producto de
probabilidades (probabilidad de la intersección de dos sucesos
independientes) $p_{ij}=p_ip_j=\frac{n_i}{n}\frac{n_j}{n}$. De este modo,
obtenemos la frecuencia esperada como
\[E_i=np_{ij}=n\frac{n_i}{n}\frac{n_j}{n}=\frac{n_in_j}{n},\]
y se calcula el estadístico
\[
\chi ^2  = \sum_{i,j} \frac{(O_{ij}  - E_{ij} )^2}{E_{ij}},
\]

que en el caso de que $X$ e $Y$ fuesen independientes, este
estadístico presenta una distribución Chi-cuadrado con
$(f-1)(c-1)$ grados de libertad, donde $f$ es el número de filas
de la tabla de contingencia y $c$ el número de columnas. Un valor
del estadístico Chi-cuadrado grande indica que las distribuciones
de las frecuencias observadas y esperadas son bastantes
diferentes, y por lo tanto falta de independencia; mientras que un
valor pequeño del estadístico indica que hay poca diferencia entre
ellas, lo cual nos indica que son independientes.

Este test es adecuado si las frecuencias esperadas para cada celda
valen como mínimo 1 y no más de un $20\%$ de ellas tienen
frecuencias esperadas menores de 5. En el caso de una tabla 2x2,
estas cifras se alcanzan sólo cuando ninguna frecuencia esperada
es menor que 5. Si esto no se cumple, puede, entre otras,
utilizarse una prueba para pequeñas muestras llamada prueba exacta
de Fisher.

\section*{Ejercicios Prácticos}
\begin{enumerate}[leftmargin=*]
\item En un estudio sobre los distintos tipos de energía utilizados para la calefacción en tres ciudades $A$, $B$ y $C$, se preguntó a un grupo de personas de cada ciudad sobre el tipo de energía que más usaban. Los resultados obtenidos fueron:
\begin{center}
\begin{tabular}{|c|c|c|}
\hline
      A       &      B       &      C       \\
\hline
     Gas      &   Gasóleo    &     Gas      \\
     Gas      & Electricidad &   Gasóleo    \\
   Gasóleo    &     Gas      &     Gas      \\
 Electricidad &     Gas      &     Gas      \\
     Gas      &   Gasóleo    & Electricidad \\
     Gas      & Electricidad &     Gas      \\
 Electricidad & Electricidad &     Gas      \\
   Gasóleo    & Electricidad &              \\
   Gasóleo    &   Gasóleo    &              \\
              &   Gasóleo    &              \\
   
\hline
\end{tabular}
\end{center}

\begin{enumerate}
\item Crear las variables \textsf{ciudad}, \textsf{energía} e introducir los datos

\item Obtener la tabla de contingencia con las frecuencias esperadas.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menu \texttt{Descripción->Datos Cualitativos->Tabulación Cruzada}.
\item En el cuadro de diálogo que aparece, seleccionar la variable \textsf{energía} en el campo \texttt{Variable Fila} y la variable \textsf{ciudad} en el campo \texttt{Variable Columna}, y hacer click en el botón \texttt{Aceptar}. 
\item En la ventana de resultados que aparece, hacer click sobre el botón \texttt{Opciones tabulares}.
\item En el cuadro de diálogo que aparece, activar la opción \texttt{Tabla de Frecuencias} y hacer click sobre el botón \texttt{Aceptar}.
\item En la ventana resultante hacer click con el botón derecho del ratón y seleccionar \texttt{Opciones de Ventana} en el menú que aparece.
\item En el cuadro de diálogo que aparece, activar la opción \texttt{Frecuencias Esperadas} y hacer click sobre el botón \texttt{Aceptar}. 
\end{enumerate}}
\end{indicacion}

\item Realizar el contraste de la Chi-cuadrado.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menu \texttt{Descripción->Datos Cualitativos->Tabulación Cruzada}.
\item En el cuadro de diálogo que aparece, seleccionar la variable \textsf{energía} en el campo \texttt{Variable Fila} y la variable \textsf{ciudad} en el campo \texttt{Variable Columna}, y hacer click en el botón \texttt{Aceptar}. 
\item En la ventana de resultados que aparece, hacer click sobre el botón \texttt{Opciones tabulares}.
\item En el cuadro de diálogo que aparece, activar la opción \texttt{Contraste de Chi-cuadrado} y hacer click sobre el botón \texttt{Aceptar}.
\end{enumerate}}
\end{indicacion}

\item A la vista del contraste, ¿se puede decir que hay diferencias significativas en el consumo de energía para calefacción entre las tres ciudades?

\end{enumerate}
 
\item En un estudio sobre úlceras pépticas se determinó el grupo
sanguíneo de 1655 pacientes ulcerosos y 10000 controles, los datos
fueron:

\[
\begin{tabular}{|l|l|l|l|l|}
\cline{2-5}
\multicolumn{1}{c|}{} & \multicolumn{1}{c|}{O} & \multicolumn{1}{c|}{A} & \multicolumn{1}{c|}{B} & \multicolumn{1}{c|}{AB} \\
\hline
\multicolumn{1}{|c|}{Paciente} & \multicolumn{1}{c|}{911} & \multicolumn{1}{c|}{579} & \multicolumn{1}{c|}{124} & \multicolumn{1}{c|}{41} \\
\hline
\multicolumn{1}{|c|}{Controles} & \multicolumn{1}{c|}{4578} & \multicolumn{1}{c|}{4219} & \multicolumn{1}{c|}{890} & \multicolumn{1}{c|}{313} \\
\hline
\end{tabular}
\]

\begin{enumerate}
\item Crear las variables \textsf{grupo\_sanguíneo} e introducir los distintos grupos sanguíneos. Crear a continuación las variables \textsf{ulcerosos} y \textsf{controles} e introducir las frecuencias correspondientes a cada grupo sanguíneo.


\item Construir la tabla de contingencia.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menu \texttt{Descripción->Datos Cualitativos->Tablas de Contingencia}.
\item En el cuadro de diálogo que aparece, seleccionar las variables \textsf{ulcerosos} y \textsf{controles} en el campo \texttt{Columnas} y la variable \textsf{grupo\_sanguíneo} en el campo \texttt{(Etiquetas)}, y hacer click en el botón \texttt{Aceptar}. 
\item En la ventana de resultados que aparece, hacer click sobre el botón \texttt{Opciones tabulares}.
\item En el cuadro de diálogo que aparece, activar la opción \texttt{Tabla de Frecuencias} y hacer click sobre el botón \texttt{Aceptar}.
\item En la ventana resultante hacer click con el botón derecho del ratón y seleccionar \texttt{Opciones de Ventana} en el menú que aparece.
\item En el cuadro de diálogo que aparece, activar la opción \texttt{Frecuencias Esperadas} y hacer click sobre el botón \texttt{Aceptar}. 
\end{enumerate}}
\end{indicacion}

\item Realizar el contraste de la Chi-cuadrado.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menu \texttt{Descripción->Datos Cualitativos->Tablas de Contingencia}.
\item En el cuadro de diálogo que aparece, seleccionar las variables \textsf{ulcerosos} y \textsf{controles} en el campo \texttt{Columnas} y la variable \textsf{grupo\_sanguíneo} en el campo \texttt{(Etiquetas)}, y hacer click en el botón \texttt{Aceptar}. 
\item En la ventana de resultados que aparece, hacer click sobre el botón \texttt{Opciones tabulares}.
\item En el cuadro de diálogo que aparece, activar la opción \texttt{Test Chi-cuadrado} y hacer click sobre el botón \texttt{Aceptar}.
\end{enumerate}}
\end{indicacion} 

\item A la vista de los resultados del contraste, ¿existe alguna relación entre el grupo sanguíneo y la úlcera péptica?, es decir, ¿se puede concluir que la proporción de pacientes y de controles es diferente dependiendo del grupo sanguíneo?
\end{enumerate}

\end{enumerate}

\section*{Problemas}
\begin{enumerate}[leftmargin=*]

\item Comprobar si la administración de diferentes tratamientos
(fármacos), que se administraban en el ejemplo (archivo
\emph{Hipertensos Datos Claves}), se distribuye de manera
diferente en ambos sexos.


\item Supongamos que queremos comprobar si un dado está bien
equilibrado o no. Lo lanzamos 1200 veces, y obtenemos los
siguientes resultados:

\[
\begin{tabular}{ll}
\multicolumn{1}{c}{Número} & \multicolumn{1}{c}{Frecuencias de aparición} \\
\multicolumn{1}{c}{1} & \multicolumn{1}{c}{120} \\
\multicolumn{1}{c}{2} & \multicolumn{1}{c}{275} \\
\multicolumn{1}{c}{3} & \multicolumn{1}{c}{95} \\
\multicolumn{1}{c}{4} & \multicolumn{1}{c}{310} \\
\multicolumn{1}{c}{5} & \multicolumn{1}{c}{85} \\
\multicolumn{1}{c}{6} & \multicolumn{1}{c}{315} \\
\end{tabular}
\]

\begin{enumerate}
\item A la vista de los resultados, ¿se puede aceptar que el dado
está bien equilibrado?

\item Nos dicen que, en este dado, los números pares aparecen con
una frecuencias 3 veces superior a la de los impares. Contrastar
dicha hipótesis.
\end{enumerate}




\item Se realiza un estudio en una población de pacientes críticos
hipotéticos y se observan, entre otras, dos variables, la
evolución (si sobreviven SV o no NV) y la presencia o ausencia de
coma, al ingreso. Se obtienen los siguientes resultados:

\[
\begin{tabular}{l|l|l|l|}
\cline{2-3}
\multicolumn{1}{c|}{} & \multicolumn{1}{c|}{No coma} & \multicolumn{1}{c|}{Coma} & \multicolumn{1}{c}{} \\
\hline
\multicolumn{1}{|c|}{SV} & \multicolumn{1}{c|}{484} & \multicolumn{1}{c|}{37} & \multicolumn{1}{c|}{521} \\
\hline
\multicolumn{1}{|c|}{NV} & \multicolumn{1}{c|}{118} & \multicolumn{1}{c|}{89} & \multicolumn{1}{c|}{207} \\
\hline
\multicolumn{1}{c|}{} & \multicolumn{1}{c|}{602} & \multicolumn{1}{c|}{126} & \multicolumn{1}{c|}{728} \\
\cline{2-4}
\end{tabular}
\]

Nos preguntamos: ¿es el coma al ingreso un factor de riesgo para
la mortalidad?


\item La recuperación producida por dos tratamientos distintos A y
B, se clasifican en tres categorías: muy buena, buena y mala. Se
administra el tratamiento A a 30 pacientes y el B a otros 30. De
las 22 recuperaciones muy buenas, 10 corresponden al tratamiento
A; de las 24 recuperaciones buenas, 14 corresponden al tratamiento
A y de las 14 que tienen una mala recuperación, 8 corresponden al
tratamiento A. ¿Son igualmente efectivos ambos tratamientos para
la recuperación de los pacientes?

\end{enumerate}

\end{document}
